Bellman Equation

벨먼 방정식은 많은 강화 학습 알고리즘의 핵심 요소 중 하나이다.

벨먼 방정식을 이용해서 가치 함수 계산을 단순화한다.(재귀를 사용)

가치 함수

행동-가치 함수

환경 동역학을 사용해서 상태 s’와 이에 해당하는 보상 r의 확률을 모두 더해 기대치를 계산

벨먼 방정식

벨먼 방정식은 상태 s에 대한 가치 함수는 후속 상태 s’의 가치 함수에 연관된다.

시간 축을 따라 반복하는 계산을 없애 주기 때문에 가치 함수의 계산을 크게 단순화시켜 준다.